Технологии Smart Engines умеют распознавать текст древних документов

Статьи и обзоры

Технологии Smart Engines умеют распознавать текст древних документов

04.06.2024

Разработка позволит изучать тексты бумажных, берестяных и серебряных свитков и печатных книг, которые пострадали вследствие естественного старения, воздействия влажности или пожаров и хранятся в особых условиях

Ученые российской компании Smart Engines и ФИЦ ИУ РАН обучили искусственный интеллект извлекать содержимое хрупких свитков, не разворачивая их. Теперь получить восстановленный текст из манускрипта можно нажатием одной кнопки. Разработка позволит изучать тексты бумажных, берестяных и серебряных свитков и печатных книг, которые пострадали вследствие естественного старения, воздействия влажности или пожаров и хранятся в особых условиях.

Российские исследователи применили неразрушающий метод рентгеновской томографии и алгоритмы машинного зрения. Объект, который нельзя разворачивать, помещается в томограф. Затем реконструируется цифровая копия документа, над которой и производятся все дальнейшие манипуляции.

Это первая полностью автоматическая система виртуального разворачивания свитков, не требующая вмешательства человека. Проблему анализа старых свитков с привлечением томографии ученые по всему миру пытаются решить более двадцати лет, предлагая разные подходы с машинным обучением. Вопрос полной автоматизации процесса при этом до настоящего времени не был решен. Обычно человеку сначала нужно подобрать параметры, чтобы запустить работу алгоритмов – это требует немало времени и сил. Затем алгоритмы могут отработать неправильно, если, скажем, слои документа слиплись, и человеку снова придется вмешаться.

Разработка была профинансирована научно-исследовательской компанией Smart Engines и создавалась на базе Smart Tomo Engine – программного продукта для томографической реконструкции.

“Мы надеемся, что наша разработка позволит сделать шаг на пути исследования и сохранения культурного наследия и откроет новые возможности для историков, археологов и других специалистов в области гуманитарных наук. Сейчас мы активно ищем партнеров для проведения дальнейших исследований", – комментирует генеральный директор Smart Engines, доктор технических наук Владимир Арлазаров.

Для обучения нейросети использовался специально созданный учеными Smart Engines корпус данных, включающий шесть образцов свернутых разными способами документов. На них были предварительно нанесены буквы и цифры разного размера и схемы с различными графическими элементами.

Специально подготовленный датасет опубликован, научная статья будет представлена в августе текущего года на The International Conference on Document Analysis and Recognition (ICDAR) – ведущей международной научной конференции в области анализа и распознавания документов.

Подписывайтесь на наши новости в Telegram: https://t.me/idexpert

Читайте нас на VK: https://vk.com/idexpert_ru

Источник: Пресс-служба Smart Engines

Рейтинг статьи

Оставить комментарий

Возврат к списку

Материалы по теме:

Статьи и обзоры

Почему ИИ «не взлетает» и где бизнес ломает внедрение
На практике большинство AI-проектов буксует уже после пилота
Oт физической к цифровой безопасности на производстве
Вклад робототехники и ИИ в обеспечение безопасности на производственных предприятиях
Топ-15 трендов в сфере AgroTech
Дроны, блокчейн, IoT и автоматизированные системы управления цепочками поставок
Цифровая трансформация «последней мили» доставки
Интернет вещей, искусственный интеллект и беспилотные системы повышают эффективность доставки
Положительный клиентский опыт, как путь к успеху
Опыт эффективной трансформации пользовательского опыта в Альфа-Банке

Новости рынка и технологий

«Ростелеком» объединяет разработчиков для промышленного внедрения искусственного интеллекта
«Ростелеком» создает Центр масштабирования искусственного интеллекта (ЦМИИ) — открытый консорциум, который объединит инфраструктуру, технологии, экспертизу и рыночные потребности для промышленного внедрения ИИ-решений в ключевых отраслях российской экономики
В Санкт-Петербурге дан старт производству промышленных роботов
На новой площадке компании “Семаргл„ будут выпускаться роботизированные решения с высокой степенью локализации оборудования и собственным программным обеспечением, включая мобильные транспортные платформы, автоматизированные системы хранения и гибкие производственные ячейки
Сбер видит большой потенциал в технологическом партнёрстве с Саудовской Аравией
В фокусе внимания — цифровая трансформация, искусственный интеллект и обмен успешными практиками
ИИ-решения принесли X5 5 млрд рублей дополнительной операционной прибыли
Основной вклад в EBITDA обеспечили ИИ-модели, встроенные в ключевые процессы ритейла: прогнозирование спроса и пополнение, ценообразование, управление ассортиментом и рекомендательные механики
Smart Engines усовершенствовала инструмент для платежей, который используют более 50 млн россиян
Усовершенствованная технология позволит более чем 50 млн пользователей еще быстрее оплачивать продукты и услуги, а также совершать переводы без ручного ввода реквизитов и выбора сценария оплаты

Продукты автоматической идентификации

Тау Браузер Специализированный браузер для легковесных HTML/JavaScript приложений	Chainway MC21 Терминал сбора данных промышленного класса	UHF RFID метка TwinTag UHF RFID метка для маркировки широкого спектра товаров в розничной торговле
DASCOM DC-7600 Карточный принтер с технологией ретрансферной печати	Chainway C72 UHF RFID Мобильный UHF RFID считыватель на ОС Android	DASCOM DP-641 Мобильный принтер этикеток
Chainway MC95 Высокопрочный (IP68) мобильный компьютер промышленного класса	RST-BOOKOS Настольный UHF RFID считыватель для библиотек, предприятий и складов	UHF RFID метка BiblioTag UHF RFID метка для маркировки архивных документов и книжных изданий